Mixture of Experts(MoE / 混合エキスパート)
概要
Mixture of Experts(MoE, 混合エキスパート)は、Transformer の一部を複数の「エキスパート(専門家)」サブネットワークに分け、入力ごとに 一部のエキスパートだけを活性化 させるアーキテクチャです。総パラメータ数を増やしつつ、推論時に使う計算量(活性化パラメータ)を抑えられるため、大規模 大規模言語モデル の効率的なスケーリング手法として注目されています。書籍『つくりながら学ぶ!LLM自作入門』でも、Transformer の派生として MoE が紹介されています。
仕組み
- エキスパート群 — 複数のフィードフォワードネットワーク(Transformer の FFN を置き換え)
- ルーター(Gating Network) — 各トークンをどのエキスパートへ送るか決める
- スパース活性化 — 全エキスパートのうち上位 k 個だけを使う
トークン → ルーター → 上位k個のエキスパートのみ実行 → 統合
利点と課題
| 利点 | 課題 |
|---|---|
| 総容量を増やしても推論コストを抑制 | 学習が不安定になりやすい |
| 専門化による性能向上 | エキスパート間の負荷バランス |
| メモリには全エキスパートを保持する必要 |
実モデルの動向(Daily フィード)
「総パラメータは大きく、活性化パラメータは小さく」という MoE の効率性を突き詰めたモデルが相次いでいます。
- MiniMax-M2 — 229.9B 総パラメータのうち 1 トークンあたり 9.8B のみ活性化。エージェント駆動データパイプラインと長期エージェント運用向け RL(Forge)で訓練し、M2.7 チェックポイントは自律デバッグ・自己修正を示す(自己改善エージェント)。The_MiniMax-M2_Series
- ZAYA1-8B — 推論特化の MoE++(8B 総 / 700M 活性化)。AIME’25 91.9%、HMMT’25 89.6%(テスト時計算併用)、4 段階 RL カスケードと Markovian RSA。AMD のエコシステムで事前学習〜微調整を実施(LLMの推論)。ZAYA1-8B_Technical_Report
- GLM-5.2 — オープンウェイト最高性能クラス(744B 総 / 40B 活性化、コンテキスト 100 万トークン、MIT ライセンス)。科学的推論で大きく改善し、Artificial Analysis Intelligence Index で MiniMax-M3・DeepSeek V4 Pro を上回る。コスト効率の Pareto 境界に位置(ローカルLLM のオープンウェイト)。参考: GLM-5.2_Leading_Open_Weights_Model
関連ページ
参考資料
- つくりながら学ぶ!LLM自作入門(Transformer の派生としての MoE)